Extension de l'algorithme CURE aux fouilles de données
نویسندگان
چکیده
Dans ce poster, nous allons proposer une démarche pour découvrir le fonctionnement du cerveau en se basant sur un concept de fouille de données. Ce concept peut se définir comme l’extraction de connaissances potentiellement exploitables à partir d’images IRMf. C’est une approche interactive qui intègre directement l’expert-médecin dans le processus de découverte et d’apprentissage de concepts pour mettre en évidence les zones fonctionnelles du cerveau et leur organisation. CURE selon Guha et al. (1998) est un algorithme de classification, mais il est robuste face aux outliers et permet d’identifier des groupes non sphériques et d’une grande variance de taille. CURE réalise ceci en représentant chaque groupe par un nombre fixé de points qui sont générés en sélectionnant des points bien dispersés du groupe, et ensuite rapprochés du point moyen au centre du groupe en le multipliant par un coefficient. Le fait d’avoir plus d’un point représentatif permet à CURE de bien s’ajuster à la géométrie des clusters non sphériques et l’opération de rapprochement de ses points permet de diminuer les effets des outliers. Pour manipuler de grandes volumes de données, CURE emploie une combinaison d’échantillonnage aléatoire et de partitionnement. Un échantillon tiré de l’ensemble des données et tout d’abord partitionné et chaque partition est partiellement mise en cluster. Chacun de ces groupes partiels sera à nouveau regroupé lors d’une seconde passe de l’algorithme pour extraire les clusters désirés. Une force de CURE, selon les auteurs, est de pouvoir s’adapter à de grandes bases de données pour un algorithme hiérarchique. L’implémentation de la version originale a démontré certaines faiblesses de performances de la classification de signaux tels que ceux de l’IRMf est très lourde car il s’agit de voxels à laquelle s’ajoute la quatrième dimension de leur évolution dans le temps. Pour réduire le temps de classification, nous avons proposé quelques améliorations.
منابع مشابه
Extension de l'algorithme Apriori et des règles d'association aux cas des données symboliques diagrammes et intervalles
Résumé. Nous traitons l’extension de l’algorithme Apriori et des règles d’association aux cas des données symboliques diagrammes et intervalles. La méthode proposée nous permet de découvrir des règles d’association au niveau des concepts. Cette extension implique notamment de nouvelles définitions pour le support et la confiance afin d’exploiter la structure symbolique des données. Au fil de l’...
متن کاملSalines : un automate au service de l'extraction de motifs séquentiels multidimensionnels
Résumé. Les entrepôts de données occupent aujourd’hui une place centrale dans le processus décisionnel. Outre leur consultation, une des finalités des entrepôts est de servir de socle aux techniques de fouilles de données. Malheureusement, les approches existantes exploitent peu les particularités des entrepôts (multidimensionnalité, hiérarchies et données historiques). Parmi ces méthodes, l’ex...
متن کاملVers une Ingénierie Ontologique à Base du Web Usage Mining
Résumé. Récemment, de nouvelles approches ont intégré l’utilisation de techniques de fouille de données dans le processus d’enrichissement d’ontologies. En effet, les deux domaines, fouille de données et méta-données ontologiques sont extrêmement liés : d’une part les techniques de fouille de donnée aident à la construction du Web sémantique, d’autre part le Web sémantique aide à l’extraction d...
متن کامل-functional dependency inference: applica- tion to DNA microarray expression data Découverte de -dépendances fonctionnelles : Application à l’analyse de l’expression des gènes
Nowadays, DNA microarray technology provides biologists with the ability to measure the expression levels of thousands of genes in a single experiment. As data from such experiments accumulates, it appears possible to attempt a reverse engineering of the underlying regulatory interactions from the expression data itself. This may be achieved by using sophisticate data mining techniques that hav...
متن کاملAlgorithme semi-interactif pour la sélection de dimensions
Résumé. Nous présentons un algorithme génétique semi-interactif de sélection de dimensions dans les grands ensembles de données pour la détection d'individus atypiques (outliers). Les ensembles de données possédant un nombre élevé de dimensions posent de nombreux problèmes aux algorithmes de fouille de données, une solution est d'effectuer un pré-traitement afin de ne retenir que les dimensions...
متن کامل